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Die Erfindung betrifft ein Verfahren zur Anonymisierung sensibler Daten innerhalb 
eines Datenstroms. 

In Datenbanken werden Informationen zur langfristigen Aufbewahrung gespeichert. 
Der Wert solcher Informationssammlungen wird als wesentliches Gut von 
Organisationen angesehen. Aufgrund der Sensitivitat wlrd im allgemeinen der Zugriff 
auf Datenbanken beschrankt, d.h. dafi der Zugriff nur fur autorisierte Anwender gennaB 
deren Rechteprofil nnoglich ist. In einem Rechteprofil kann festgelegt werden, wer auf 
welche Daten mit welchen Modi (z.B. lesend, schreibend) zugreifen kann. Ein 
gangiges Beispiel ist, daB nicht jeder Mitarbeiter eines Untemehmens Personaldaten 
einsehen kann. Auch gemaB dem „Need to know"-Prinzip konnen Mitarbeiter 
ausschliefilich die Infonmationen einsehen, die sie zur Ausubung ihrer dienstlichen 
Tatigkeiten benotigen. Alle weiteren Informationen sind gesperrt. Fur die Vergabe der 
Zugriffsrechte ist ein Administrator zustandig, von dessen Zuverlassigkeit der 
Datenschutz im wesentlichen abhangt. 

Zur Datensicherung werden haufig Anonymisierungsverfahren eingesetzt, die 
diejenigen Daten. auf die kein Zugriff erfolgen soli, anonymisieren. Solche Verfahren 
werden insbesondere verwendet, wenn Daten einer Datenbank in Form eines 
Datenstroms ubermittelt werden sollen. wobei sichergestellt werden muB. dafi auf dem 
Obermittlungsweg kein unberechtigter Zugriff auf die Daten erfolgt. Ein 
Anwendungsbeispiel hierfur ist die Versendung eines Datenstroms per E-Mail. Dabei 
haben Sender und Empfanger voile Zugriffsrechte auf alle in der Datenbank 
enthaltenen Daten. Die Daten werden vor Absendung verschliisselt, so da(i Angreifer 
innerhalb des Internets keinen Zugriff auf die Daten nehmen konnen. Der Empfanger 
entschlusselt die Daten und kann vollstandigen Zugriff darauf nehmen. 

Bei den bekannten Verfahren zum Schutz von Datenbanken wird die Autorisierung und 
Rechtepriifung typischenA^eise am Datenbank-Front End realisiert. Dies trifft z.B. fur 
DB2"^ von IBM zu. Wird ein hoheres Niveau bzgl. des Zugriffsschutzes gefordert, so 
gibt es kommerzielle Produkte, wie z.B. RACF™ (Ressource Access Control Facility) 
von IBM. Die Zugriffskontrolle wird jedoch auch hier von einem Administrator 
kontrolliert. 



Eine klassische Situation, in der die herkommlichen Verfahren unzureichend sind. ist 
eine Outsourcer/lnsourcer-Beziehung. Bin Outsourcer lafit bestimmte Dienste durch 
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einen Insourcer erbringen und ubergibt dem Insourcer alle dafur notwendigen Daten, 
die beim Insourcer in einer Datenbank gespeichert werden. Wenn der Outsourcer aus 
Datenschutzgrunden Oder aus Grunden des Kundenschutzes die Weitergabe von 
kundenidentifizlerenden Daten eigenstandig kontrollieren will, wird mit den bekannten 
5 Anonymisierungsverfahren entweder der Zugriff auf die gesannte Datenbank 
unterbunden Oder die selektive Kontrolle uber den Zugriff auf bestimmte Daten einem 
Administrator unterstellt, der im dem Hause des Insourcers angesiedelt ist. 
Grundsatzlich ware der Zugriff somit auch auf sensible Daten moglich. 

Es ist Aufgabe der vorliegenden Erfindung. ein Verfahren zur Verfugung zu stellen, 
10 das den Zugriff auf eine Datenbank ermoglicht. dabei aber bestimmte Daten innerhalb 
dieser Datenbank vom Zugriff ausschiiefit. ohne die Zuordnung der ausgeschlossenen 
Daten zu den restlichen Daten zu zerstSren. Die Datenbank soil zur Bearbeitung der 
nicht geschutzten Daten in dritte Hande gegeben werden konnen, ohne daft die 
Zugriffskontrolle auf die geschutzten Daten aus der Hand gegeben wird. 

15 Erfindungsgemafi wird ein Verfahren zur Anonymisierung sensibler Daten innerhalb 
eines Datenstroms mit folgenden Schritten vorgeschlagen: 

a) Komprimierung des sensiblen Datenfeldes 

b) Anonymisierung des sensiblen Datenfelds; 

c) Kennzeichnung des anonymisierten sensiblen Datenfelds innerhalb des 
20 Datenstroms durch Start- und Stoppzeichen. 

Erfindungsgemafi werden die sensiblen Daten innerhalb einer Datenbank selektiv 
anonymisiert. Die anonymisierten Datenfelder werden mit einem Start- und einem 
Stoppzeichen versehen, urn sie fur die spatere Deanonymisierung kenntlich zu 
machen. 

25 Das erfindungsgemalie Verfahren kann insbesondere eingesetzt werden, wenn ein 
Datenbanknutzer Daten in einer Datenbank ablegt. und Telle der Daten durch einen 
Datenbankbetreiber bearbeitet werden sollen. Wahrend der Datenbanknutzer 
autorisiert ist. samtliche Daten zu lesen. sollen sensible Daten, wie z. B. 
kundenidentifizierende Informationen, fur den Datenbankbetreiber anonymisiert und 

30 nicht deanonymisierbar sein. Die Anonymisierungsinformation verbleibt beim 
Datenbanknutzer. Die nicht anonymisierten Daten konnen vom Datenbankbetreiber 
ausgewertet und bearbeitet werden. Die Zuordnung der Daten zueinander bleibt 
erhalten. 
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Die sensiblen Daten kbnnen beispielsweise kundenidentifizierende Informationen sein, 
wobei die dem Kunden zugeordneten Daten zwecks statistischer Auswertung lesbar 
sein sollen. Die Datenbank kann mit dem erfindungsgemalien Anonymisierungs- 
verfahren partiell anonynnisiert und an Dritte zur statistischen Auswertung und 
5 Bearbeitung weitergegeben warden. Die kundenidentifizierenden Daten sind fur den 
Dritten nicht lesbar. Die Kontrolle daruber, welche Zugriffsrechte fur welche Personen 
bestehen. verbleibt beim Datenbanknutzer. Die Zuordnung zwischen den bearbeiteten 
Daten und den jeweiligen anonymisierten Daten, wie Kundennannen, bleibt erhalten. 
Nach Ruckgabe der ausgewerteten Oder bearbeiteten Datenbank an den 
10 Datenbanknutzer kann dieser die Deanonymisierung vomehmen und die vollstandige, 
bearbeitete Datenbank nutzen. 

Das erfindungsgemaBe Verfahren ISflt sich insbesondere auch dann vorteilhaft 
anwenden. wenn die sensiblen Datenfelder eine vorgegebene Feldlange aufweisen. Es 
versteht sich aber von selbst. dafi das Verfahren ohne Einschrankung auch bei 
15 unbegrenzten Feldlangen entsprechend anwendbar ist. Auch wenn sich die 
nachfolgenden Ausfuhrungen vemiehrt auf sensible Datenfelder vorgegebener 
Feldlange beziehen, ist dies nicht einschrankend zu verstehen. 

Vorteilhaft kann vor der Anonymisierung des sensiblen Datenfeldes eine 
Komprimierung der Daten vorgenommen werden. Im Falle der vollstandigen Fullung 
20 des Datenfeldes wird auf diesem Wege Platz fur die Hinzufugung von Start- und 
Stoppzeichen zur Kennzeichnung des anonymisierten Datenfeldes geschaffen. Die 
Kennzeichnung ist notwendig zur spateren Deanonymisierung des Datenfeldes. 

Ist das Datenfeld ohnehin nicht vollstandig gefQIlt. oder sind die Daten durch die 
Komprimierung soweit komprimiert. dafi noch Platz im Datenfeld verbleibt. kann das 
25 Datenfeld vor der Anonymisierung durch Fullzeichen aufgefullt werden. 

Es stehen insbesondere zwei Moglichkeiten zur Anonymisierung des Datenfeldes zur 
VerfOgung, namlich die Pseudonymisierung und die Verschlusselung. 

Ist das Datenfeld vollstandig gefullt, wird vorzugsweise eine Pseudonymisierung 
vorgenommen. Dabei muli die Lange des verwendeten Pseudonyms so gewahit 
30 werden. dafi im Datenfeld nach der Pseudonymisierung Platz fur Start- und 
Stoppzeichen verbleibt, 

Verbleibt innerhalb des Datenfeldes noch Platz. so wird das Datenfeld vorzugsweise 
durch Fullzeichen. insbesondere mit zufSlligen Werten, zumindest teilweise aufgefullt 
und anschliefiend verschlusselt. 
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Die Auffullung des Feldes mit zufalligen Werten sichert die Auflosung von Isonomien. 
Beispielsweise ist es erforderlich. daB haufig auftretende Namen, wie im deutschen 
Sprachraum Miiller, Meier usw. versciileden verschlusselt werden. damit uber eine 
Analyse der Haufigkeit der Daten keine Ruckschlusse auf die Daten gezogen werden 
5 kann. Dies wird mit der Auffullung des Datenfeldes durch zufallige Werte und 
anschliefiende Verschlusselung erreicht. 

In einer bevorzugten Ausfuhrungsfomi des erfindungsgemaBen Verfahrens werden im 
verschlusselten Datenfeld auch Informationen uber den zur Verschlusselung 
venwendeten Schlussel abgelegt. Diese Schlusselinformationen dienen dem 

10 Datenbanknutzer dazu. die verschlusselten Daten entschlussein zu konnen. Auf 
diesem Wege konnen verschiedene Schlussel zur Verschlusselung der Daten 
verwendet werden, wobei jeweils innerhalb des Feldes die entsprechenden 
Schlusselinformationen zur Identifizierung des Schlussels abgelegt werden. Es 
versteht sich von selbst, daB der Fullgrad des Feldes so beschaffen oder durch 

15 Datenkompression erzeugt werden muB, daB Platz zum Ablegen einer 
Schlusselinformation verbleibt. 

Das Erkennen, welche Daten zu ver- bzw. entschlussein sind, kann durch eindeutige 
Kennzeichnung durch sogenannte Start- und Stoppzeichen. wie z.B. „{" und „}" 
realisiert werden. Diese Start- und Stoppzeichen durfen im betroffenen System auBer 
20 zur Kennzeichnung verschlusselter Daten nicht verwendet werden. Dieser Ansatz hat 
den Vorteil, daB er unabhangig von den Anwendungen, die auf den Daten operieren. 
ist. 

Gibt es im betrachteten System kein einziges elndeutiges Startzeichen, kann eine 
Menge von Startzeichen verwendet werden. Gleiches gilt fur das Stoppzeichen. Im 
25 einfachsten Fall konnte die Menge der Startzeichen aus einem Zeichen bestehen. 
welches mit dem Stoppzeichen identisch ist. Dies hat allerdings wiederum den 
Nachteil, daB eine Synchronisierung in einem Fehlerfall alleine aufgrund der Kenntnis 
von Start- und Stoppzeichen nicht mehr moglich ist. 

Das erfindungsgemaBe Verfahren wird im folgenden anhand von verschiedenen 
30 Beispielen mit Bezug auf die beigefugten Abbildungen naher erlautert: 

Rg. 1 zeigt die Kennzeichnung von sensiblen, zu anonymisierenden Daten; 

Fig. 2 zeigt das Ablaufschema einer Ver- bzw. Entschliisselung; 

Fig. 3 zeigt den Ablauf eines Verschlusselungsprozesses; 



wo 00/56005 



-5- 



PCT/DEOO/00586 



Fig. 4 zeigt die Struktur eines verschlusselten Datenfeldes; 

Fig. 5 zeigt den Ablauf eines Entschlusselungsprozesses. 

Das Anonymisierungsverfahren soil folgende Anforderungen erfullen: 

1. Haufig vorkommende Daten (z.B, die haufig auftretenden Namen Muller, Meier 
5 usw. im deutschen Sprachraum) sollen verschieden versclilusselt werden. 

Dadurcli soil vertiindert werden. dafi uber die Analyse der Haufigkeit von Daten 
Schlusse auf die Daten selbst gezogen werden konnen. Die Isonomien der 
Daten sollen aufgelost werden. 

2. Die Lange eines zu verschlusseindes Datenfelds ist durch eine fixe, maximale 
10 Lange beschrankt. die im wesentlichen durch das Datenbank-Design 

vorgegeben ist. Feldtypen, z.B. numerisch oder alphanumerisch durfen nicht 
verandert werden. Diese Anforderung ermoglicht eine nachtragliche Integration 
des Verfahrens. ohne da(J ein Betreiber eines Datenbanksystems seine 
Anwendungen zur Verarbeitung der Daten verandem mu(i. 

15 3. Jedes verschlusselte Datenfeld enthalt alle Informationen auBer Schlussel und 
systemweite Parameter zur Entschlusselung. Ein autarkes Verarbeiten jedes 
Datenfeldes ist deshalb moglich. 

Die vorgenannten drei Eigenschaften sollen von dem gewahlten 
Anonymisierungsverfahren gleichzeitig erfullt werden. 

20 Zur Durchfuhrung des Verfahrens wird das zu anonymisierende Datenfeld zunachst 
auf seinen Fullgrad hin uberpruft. Es muR sichergestellt werden, dafi nach der 
Verschlusselung noch genugend Platz innerhalb der vorgegebenen festen 
Datenfeldlange verbleibt, um ein Start- sowie ein Stoppzeichen und eine Information 
fur den verwendeten Schlussel abzulegen. 

25 Ist der Fullgrad des Datenfeldes zu groli um eine Verschlusselung mit den 
vorgenannten Kriterien durchfuhren zu konnen. wird das Datenfeld zunachst 
komprimiert. Fuhrt auch die Komprimierung des Datenfeldes nicht zu einer hinreichend 
kleinen FeldgrSfie, erfolgt die Pseudonymisierung. Das Pseudonym muft so gewahit 
werden. dalS die oben unter 2.) vorgegebene Bedingung hinsichtlich des 

30 Fullungsgrades des Datenfeldes erfullt wird. 

Ist der Fullgrad des Datenfeldes hinreichend gering, um eine Verschlusselung des 
Datenfeldes zu ermbglichen. wird die Verschlusselung vorgenommen. Dafur wird das 
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Datenfeld zunachst bis zum maximal mogliclien Fiillgrad mit zufalligen Werten 
aufgefOlit. 

Bei geringem Informationsgehalt des Datenfelds kann vor der Auffullung eine 
Datenkomprimierung vorgenommen werden, um Isonomien besser auf!5sen zu 
5 konnen. 

AnschlieBend wird die Verschlusselung vorgenommen. Der verwendete 
Verschlusselungsalgorithmus kann beliebig gewahit werden. Gangige Algoritlimen sind 
z.B. IDEA (International Data Encryption Algorithm) oder DES (Data Encryption 
Standard). 

10 Das verschlusselte Datenfeld wird dann mit einem Start- und einem Stoppzeichen 
gekennzeichnet. AuBerdem wird im Datenfeld an einer vorher definierten Position eine 
Information uber den zur Verschlusselung venwendeten SchlQssel abgelegt. 

Das nachfolgende Beispiel soli das Verfahren veranschaulichen: 

Die Datenfeldlange betragt 40 Zeichen. Inhalt des unverschlusselten Datenfeldes ist 
15 der Name „Meier". Als Startzeichen dient „{", als Stoppzeichen „}". Das Datenfeld wird 
auf die voile Feldl^nge aufgefiillt und mit Start- und Stoppzeichen versehen, also: 



An das Verfahren werden die 40 Zeichen zwischen den Start- und Stoppzeichen 
Qbergeben. Die Verschlusselung ergibt dann ein 40 Zeichen langes Datenfeld 
20 einschlieGlich Start- und Stoppzeichen, also z.B.: 



In den verschliisselten Datenfeldem sind k Bits zur Kennzeichnung des venwendeten 
Schlussels aus einem SchlQsselsatz vorgesehen. Somit Ist es moglich. 
verschiedene SchlQssel darzustellen. Durch die Aufnahme von Zusatzinfomnationen in 
25 die verschlusselten Datenfelder, wie z.B. Menge von Start- und von Stoppzeichen, 
Schlusselbits und Infomaationen Qber den verwendeten Initialisierungssektor fur den 
Verschlusselungsalgorithmus ist eine Komprimierung der zu verschlusselnden 
Datenfelder notwendig. 

In der beigefiigten Fig. 2 ist die Ver- bzw. Entschlusselung von Datenfeldem 
30 dargestellt. Die einzelnen Schritte werden nachfolgend naher eriautert. 

Die Beschreibung des Verfahrens geht von den folgenden Voraussetzungen aus: 



{Meier. 



{ch74nHhdJqa 



yjas8}. 
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Jedes Zeichen wird durch ein Byte dargestellt (z.B. ASCII- Oder EBCDIC- 
Code). Vor der Ver- bzw. Entschlusselung werden alle Zeichen eines Feldes in 
einen internen Zeichensatz (ASCII) umgewandelt und danach wieder 
entsprechend konvertiert. 

5 - Die unterschiedliclien Parameter sind wie folgt festgelegt: 

1 . einen Zeichensatz (z.B. 91 bestimmte Zeichen des EBCDIC-Codes); 

2. eine Menge der Startzeichen und Stoppzeichen fur verschlusselte 
Datenfelder, die nicht inn Zeichensatz enthalten sind; 

3. ein Ersatzzeichen fur nicht zum Zeichensatz gehorende Zeichen (1st 
10 Bestandteil des Zeichensatzes); 

4. ggf. notwendige Fullzeichen (ist Bestandteil des Zeichensatzes); 

5. Verfahrensparameter fur die Kompression; 

6. Angaben daruber. wie bei nicht erfolgreicher Komprimierung das 
ursprungliche Datenfeld nachverarbeitet werden soil; 

15 7. Angaben zur Darstellung von Bitfolgen als Folgen zulassiger Zeichen; 

8. Angaben daruber. welcher der Schlussel aus dem Schlusselsatz 
verwendet werden solL 

In Abhangigkeit von der Machtigkeit des Zeichensatzes lassen sich einzelne 
Bitsegmente jeweils zu Zeichenfolgen einer bestimmten Lange umformen (zum 
20 Beispiel konnen bei einem Zeichensatz von 91 Zeichen je 13 Bit In je 2 Zeichen 
effektiv umgeformt werden). Optimal ware eine „gemeinsame" Umformung der 
gesamten Bitfolge durch Betrachtung der Folge als Binarzaht und Darstellung dieser 
Zahl zur Basis b = Machtigkeit des Zeichensatzes. 

Im folgenden wird ein Verfahren zur effektiven Codierung einer moglichst groBen 
25 Bitfolge in ein Datenfeld einer vorgegebenen Lange beschrieben, das fur eine 
Implementierung auf Systemen mit 32-Bit-Prozessoren vorgesehen ist. Zunachst wird 
fur einen gegebenen Zeichensatz vom Umfang b vor der Grundinitialisierung einmalig 
folgendes berechnet („ln" bezeichnet hierbei den naturlichen Logarithmus): 

• Bestimmung des Minimalwertes von x/y fur ganzzahliges y von 1 bis 32 und 
30 ganzzahliges x ^ y * ln(2)/ln(/)). 

Beispiel: Bei /> = 91 erhalt man ein Minimum bei x = 2 und y = 13. 
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• Fur alle Werte x' von 1 bis x-1 wird das jeweilige ganzzahlige Maximum y' (x*) mit 
yXxO * ln(2)/ln(fc; <x' berechnet. Aulierdem wird yXO) := 0 gesetzt. 

Beispiel: Bei b = 91 und x = 2 erhalt man /(I ) = 6. 

Es lafit sich nun folgendemiaBen eine Bitfolge in ein Datenfeld der Lange of umformen: 

5 1 . Umformung von je y Bit in je x Zeiciien. 

Beispiel: Bei = 91 werden je 13 Bit durch je 2 Zeichen dargestellt. 

2. Falls die gegebene Datenfeldiange d nicht durch x teilbar ist, dann werden 
y' (xO Bit in die restlichen x' Zeichen umgeformt. Im Beispiel werden noch 6 Bit 
durch ein Zeichen dargestellt. 

10 Sei s die Anzahl der verwendeten Startzeichen in den verschlusselten Datenfeldem 
und 

L{d,b,s) = L = ((cf - s - 1 ) DIV x)y + yX{d - s - 1 ) MOD x) 

die Anzahl der Bits, die sich durch Anwendung des obigen Verfahrens in ein Datenfeld 
der Lange (c/ - s - 1) umfonmen lassen. Der Wert (d - s - 1) resultiert daraus, dali im 
15 verschlusselten Datenfeld die Menge der Startzeichen der Lange s und das 
Stoppzeichen enthalten sein mussen. 

Bei = 30. b = 91 und s =1 erhalt man zum Beispiel L=14*13 + 0=182. 
bei d = 15, b = 91 und s =3 ergibt sich L = 5 * 13 + /(I) = 65 + 6 = 71. 

m = (L - k - Lange komprimierte Bitfolge) sei. die nach der Kompression noch zur 
20 Verfugung stehenden Bits, k Bits sind fur die Nummer des verwendeten Schlussels 
vorgesehen. Fur die Kompression konnen die verschiedensten Methoden eingesetzt 
werden. In Abhangigkeit von dieser Zahl m wird festgelegt, wie der 
Initialisierungsvektor fur die Verschlusselung bereitgestellt und codiert wird. 

Die geeignete Wahl des tnitialisierungsvektors sorgt dafur, dali Isonomien aufgelost 
25 werden. Es gibt hierfur prinzipiell die folgenden Mbglichkeiten. die eingesetzt werden 
konnen: 

• Verwendung von Zufallszahlen 

• Verwendung von Zahlem. 

Zeitiich gestaffelt konnen verschiedene Schliissel des aus k Schlussein bestehenden 
30 Schlusselsatzes eingesetzt werden. Bei der Verschlusselung ist festzulegen, welcher 
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dieser Schlussel verwendet warden soli. Die Schlusselnumnner wird durch k Bits 
kodiert. 

Wenn die aus k Bits fur die Nummer des Schlussels, den Bits fur die Codierung des 
Initialisierungsvektors und den Bits des komprimierten Datenfeldes bestehende 
5 Bitfolge kurzer als erforderlich sein sollte, d.h. kleiner als L ist. so wird sie am Ende mit 
Bits „0" aufgefullt. bis die maximal zulassige Bitlange L erreicht ist. 

Verschlusselt wird der komprimierte Datenfeldinhalt. 

Die Verschlusselung kann mit einem Blockverschlusselungsalgorithmus erfolgen und 
dem gespeicherten geheimen Schlussel im CBC-Modus. wobei der letzte Block der 
10 Lange j (falls diese kurzer als 64 Bit ist) im CFB-Modus verschlusselt wird (siehe 
z,B.ISO/IEC 10116. Infonnations Technologie - Modes of Operation for ann-bit Block 
Cipher Algorithm, 1991). 

Bei der Betrachtung wird davon ausgegangen, da(i die typische Blocklange von 64 
verwendet wird. Bine Verallgemeinerung auf andere Blocklangen ist offensichtlich. 
15 Eine andere Variante, die sog. Stromverschlusselungsalgorithmen, konnten direkt zur 
zeichenweisen Verschlusselung eingesetzt werden. 

Zur Bildung des verschlusselten Datenfeldes wird schlielilich die erhaltene 
Zeichenfolge zwischen der Menge Startzeichen und dem Stoppzeichen eingefugt. 

Sobald im Datenstrom die Startzeichenfolge erkannt wird, werden die nachfolgenden 
20 Zeichen in einen internen Speicher gegeben, bis das Stoppzeichen erscheint. 

Falls sich unter den nachfolgenden Zeichen die Startzeichenfolge befindet, wird der 
Prozefi der Einspeicherung abgebrochen und bei der neuen Startzeichenfolge 
begonnen. Falls nach einer vorgegebenen Maximallange noch kein Stoppzeichen 
festgestellt wurde, wird der Prozefi ebenfalls abgebrochen und es wird emeut nach der 
25 nachsten Startzeichenfolge gesucht. Falls zwischen der Menge Startzeichen und dem 
Stoppzeichen weniger als eine vordefinierte untere Schranke Zeichen sind, wird die 
Einspeicherung ebenfalls abgebrochen. 

Nicht jedes Datenfeld kann so stark komprimiert werden, dafi die angestrebte Anzahl 
Bits fur den Initialisierungsvektor zur Verfugung steht. Je kurzer die Datensatzlange ist. 
30 desto schlechter ist die Komprimierung, mit der Konsequenz, dali weniger Bits fur den 
Initialisierungsvektor zur Verfugung stehen und somit weniger Moglichkeiten 
verschiedene Chiffrate fOr ein Datenfeld zu erzeugen. 

In einem solchen Fall gibt es prinzipiell die folgenden drei M5glichkeiten fortzufahren: 
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1. Kurzung des Datenfeldes bis eine ausreichende Komprimierung erreicht 
werden kann. Dies ist aber zwangslaufig mit Informationsverlust verbunden. 

2. Das betroffene Datenfeldes wird nicht verschltisselt, es wird somit in Klartext 
bleiben. Dies kann moglichenwelse akzeptabel sein, falls dies im Verhaltnis zu 

5 der gesamten Menge zu verschlusselten Datenfelder sehr selten vorkommt. 

3. Verwendung des Pseudonymislemngsansatzes, dieser wird im folgenden 
beschrieben, 

Bel vorgegebener fester Feldlange. kann der Fall eintreten, da(i keine ausreichende 
Komprimierung der Datensatze erreicht werden kann. Ist eine Kurzung oder das 
10 Weiterleiten in Klartext nicht akzeptabel. so kann die vollstandige "Verschieierung" 
aller ausgewahlten Datensatze, durch den Pseudonymisierungsansatz realisiert 
werden. 

Analog zu einem Alias, erfolgt eine Verknupfung von Datenfeldern und Pseudonymen 
und vice versa. Die Informationen werden in einer Tabelle gehalten. 

15 Leutheusser-Schnarrenberger <-> X1BXE H 

Garmisch-Partenkirchen <-> X2BXD9 Z 

Falls die Pseudonymisierung an mehreren raumlich getrennten Orten notwendig ist, 
mussen die an alien Standorten vergebenen Pseudonyme an alien anderen 
20 Standorten vorgehalten werden (Replikation). Dies bedeutet zusatzliche 
Kommunikationskosten. Es sind zusatzliche Malinahmen zur Sicherung der 
Ubertragung notwendig. 

Die Speicherung von verschlusselten Datenfeldern kann uber langere Zeitraume, z.B. 
5-15 Jahre. erfolgen. Die zeitlich gestaffelte Verwendung von mehr als einem 
25 Schlussel ist aus den folgenden Grunden ratsam: 

• Wird der Schlussel bekannt, ist die gesamte Menge der verschlusselten 
Datenfelder als offen gelegt zu betrachten. 

• Die einem Krypto-Analysten zur Verfugung stehende Menge von verschlusselten 
Datenfeldem, ist wesentlich geringer. wenn mehrere Schlussel verwendet werden. 



30 Deshalb sieht das Verfahren pro Menge von Datenbanknutzem, die kooperieren, k 
Schlussel vor. 
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In einem Trust Center (vertrauenswurdige dritte Instanz). welches das notwendige 
technische und organisatorische Umfeld stellt. konnen die Schlussel generiert werden. 

Verschiedene Mengen von Datenbanknutzern. die nicht miteinander kooperieren. 
sollten verschiedene Mengen von Schlusseln haben. die keinerlei Abhangigkeit von 
5 einander haben. So ist ausgeschlossen, dali eine Menge von Datenbanknutzern auf 
Datenbankinformationen der anderen Menge von Datenbanknutzern zugreifen kann. 

Das Key Management besteht aus folgenden Funktionen: 

1 . Schlusselerzeugung 

Erzeugung eines Schlusselpaktets aus k Schlusseln. Hierfur eignet sich 
10 besonders ein Hardware Zufallszahlengenerator. Im Nachgang der 

Schlusselerzeugung konnen die generierten Schlussel auf ein 
Schlusselaufbewahrungsmedium. z.B. eine Chip- Oder PCMCIA-Karte, 
gespeichert werden. Diese Medien konnen so konflguriert werden, dali sie die 
kryptographischen Berechnungen selbst ausfuhren oder Schlussel erst nach 
15 vorheriger Authentisierung herausgeben. 

2. Schliisselverteilung 

Vom Ort der Schlusselgenerierung konnen die Schlussel auf einem 
Schlusselaufbewahrungsmedium zum Einsatzort (Endgerat) oder zur sicheren 
Aufbewahrung (Back-up) transportiert werden. 

20 3. Schlussel in Endgerate einbringen 

Ein Endgerat zeichnet sich dadurch aus, daft es die notwendigen Ver- bzw. 
Entschlusselungsprozesse ausfuhren kann. Ein solches Gerat kann eine 
speziell entwickelte Hardware oder ein PC sein. Die Schlussel konnen aus dem 
Schlusselaufbewahrungsmedium nach vorheriger Authentisierung in ein 
25 Endgerat geladen werden oder das Endgerat kann Auftrage zur Ver- und 

Entschlusselung entgegennehmen. Der letzte Fall setzt eine entsprechende 
Ressource des SchlQsselaufbewahrungsmediums voraus. hat aber der Vorteil, 
daft die Schlussel nie das Schlusselaufbewahrungsmedium verlassen. 

4. Schlussel vernichten: 

30 Falls ein kooperierende Menge von Datenbanknutzern ein Schlusselpaket aus 

k Schlusseln nicht mehr benfttigt, ist es moglich, die Schlussel durch geeignete 
Maftnahmen zu vemichten, z.B. durch Vemichtung des Schlusselauf- 
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bewahrungsmediums und Loschen des Schlusselpakets aus den 
entsprechenden Endgeraten. falls vorhanden. 
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1 . Verfahren zur Anonymisierung sensibler Daten innerhalb eines Datenstroms 
mit den folgenden Schritten: 

a) Komprimierung des sensiblen Datenfeldes 

b) Anonymisierung des sensiblen Datenfeldes. 

c) Kennzeichnung des anonynnisierten sensiblen Datenfeldes innerhalb 
des Datenstroms durch Start- und Stoppzeichen. 

2. Verfahren nach Anspruch 1 . dadurch gekennzeichnet, dali das sensible 
Datenfeld vor der Anonymisierung durch Fullzeichen aufgefullt wird. 

3. Verfahren nach Anspruch 1 Oder 2, dadurch gekennzeichnet, dali die zu 
anonymisierenden Daten pseudonymisiert werden. 

4. Verfahren nach Anspruch 1 Oder 2, dadurch gekennzeichnet, dali die zu 
anonymisierenden Daten verschlusselt werden. 

5. Verfahren nach Anspruch 4. dadurch gekennzeichnet, dali sensible 
Datenfelder vor der Verschlusselung zumindest teilweise mit zufalligen Werten 
aufgefullt werden. 

6. Verfahren nach Anspruch 4 Oder 5, dadurch gekennzeichnet, dafi im 
verschlusselten Datenfeld Infonnationen iiber den zur Verschlusselung 
verwendeten SchlQssel abgelegt werden. 



7. 



Verfahren nach einem der Anspruche 1 bis 6. dadurch gekennzeichnet, da(i 
das sensible Datenfeld eine feste Feldlange aufweist. 
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(57) Abstract: The invention relates to a method for rendering anonymous sensitive data within a data stream. The invention pro- 
^ vides a method which comprises the following steps: Compressing the sensitive data field; rendering anonymous the sensitive data 
field, and distinguishing the anonymized sensitive data field within the data stream by means of start and stop signs. 

(57) ZusammenfassuQg: Die Erfindung betrifft ein Verfahren zur Anonymisierong sensibler Daten innerhalb eines Datenstroms. 
Q ErfindungsgemaB wird ein Verfahren vorgeschlagen, das die Schritte Komprimierung des sensiblen Datenfeldes, Anonymisierung 

des saisiblen Dateaifeldes und Kennzeichnung des anonymisierten sensiblen Datenfeldes iimerhalb des Datenstroms durch Start- 
^ und Stopzdchen umfaBt 
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